单体型是指位于一条染色体特定区域的一组相互关联,并倾向于以整体遗传给后代的单核苷酸多态性的组合。简单地说就是同源染色体上同一位点的杂合SNP,如在某一位置同源染色体中一条为G,另一条染色体为A。单体型图谱能够将来自于父母本的遗传信息区分开,研究遗传变异;由多个国家联合进行的国际人类基因组单体型图计划(简称HapMap计划),目标是构建人类DNA序列中多态位点的常见模式,即单体型图(haplotype mapping),简称HapMap。
通过寻找杂合SNP位点,根据Hi-C中相互作用强度随着距离增大递减的规律,将同源染色体之间SNP位点进行分类,分成两套单体型图谱;每套单体型图谱中依然根据图4规律完成图谱组装与搭建。
微生物群落由复杂的生物体组成,其中包含很多未知丰度的未知物种。研究复杂微生物群落一般采用宏基因组的方法,但是标准的文库构建方法(DNA小片段)会忽略掉基因组上的远程互作信息,而且传统的宏基因组测序中组装获得的contigs长度较短,往往不能拼接组装到单菌株水平。Hi-C技术可以获取染色体水平的相互作用图谱,提供了细胞内基因组完整的互作信息,包含染色体之内和染色体之间的相互作用信息。通过不同contigs互作的强弱关系,可以将其定位到染色体水平,因此Hi-C可以用于复杂样品中微生物基因组的组装。
Hi-C辅助组装的理论依据:根据Hi-C中相互作用强度随着距离增大递减的规律。大体分为两步:1) 将宏基因组组装草图中的contigs进行聚类,分为几个菌种。 2) 聚类后,对每个菌种组装成染色体水平scaffold。
高通量测序数据日益加大,呈指数型积累上升,必须交由高速网络提速分析。
基于以色列Infiniband技术,惠研云构建优化了集群计算性能,使得计算IO提升300%,持续数据交互速率提高到2T总带宽,保证集群中任务与数据0延迟,无阻塞。